大家好~
這個系列是我第一次撰寫公開的技術類型文章,很榮幸能被你閱讀到。
過去我在學習寫各種程式的過程中,受到許多iT邦幫忙、Medium以及一些個人部落格上的中文教學文章幫助,也有想過自己也來寫一些內容,分享學到的一些技術。現在手邊正好有個大學以來規模最大的專題正在開發中,所以就打算透過鐵人賽需要發表一系列文章的特性,紀錄我在開發「基於自然語言處理的新聞意見提取應用」的過程中,覺得重要或是資源較少的開發細節與技巧,以及運用自然語言處理技術從繁體中文新聞中提取人物意見的實驗。同時也藉此機會練習文章的撰寫與技術分享。
以下是這連續一個月挑戰的大致規劃:
挑戰前段:
分享一些我在開發過程中學到的 Python 技巧,以及用 AWS(Amazon Web Services) 架設所需功能的方法與設定細節。
挑戰後段:
介紹從繁體中文新聞中提取處人物意見會用到的自然語言處理概念、套件工具,以及我所設計的方法實驗與實際意見提取效果。如果時間充裕的話會再加入繁體中文新聞、人物意見的相似度及分群實驗。
如今的新聞媒體多發展於各自的媒體網站及網路社群,在依靠網路廣告的收益模式下,導致很多簡短,類似快訊的新聞產生。我觀察到這些為了高點閱率的政治類別新聞快訊,結構多以「事件描述句」、「人物意見句」組成,其新聞內容除了對於事件的簡單提要外,只有幾句人物意見。若是想要一次了解多位不同人物對特定政治議題的意見看法,就需要閱讀多篇報導。
此次挑戰的主題 「基於自然語言處理的新聞意見提取應用開發」,最終目的是開發出一個應用系統,能透過自然語言處理的技術,從多家媒體的政治類別網路新聞中,提取出人物意見,再將這些意見依照報導的事件議題、意見持有者進行分群與整合。讓讀者透過閱讀依照事件分類的各個人物意見,達到從多家媒體的報導中獲得更全面的人物意見資訊的目的。
本次挑戰將嘗試運用自然語言處理技術,達到如同下面範例的人物意見提取效果。
要從政治新聞中提取人物意見,包含的子任務如下:
以下面的政治新聞片段為例:
「林楚茵認為,食品進口之後在全國具有流通性,兩者從本質上來看完全不相同,定義也不一樣,「不一樣的兩個事務,卻要擺在一起討論」,她嚴重懷疑之前因為美國豬肉進口,有幾個地方議會特別申請釋憲,憲法法庭將在22日舉行言詞辯論,國民黨是刻意要透過這樣的話題帶風向。」
— 摘自ETtoday國民黨搬大法官釋字反福食 民進黨團批:帶風向影響憲法法庭
可以擷取出兩句意見:
林楚茵認為,食品進口之後在全國具有流通性,兩者從本質上來看完全不相同,定義也不一樣,「不一樣的兩個事務,卻要擺在一起討論」
她嚴重懷疑之前因為美國豬肉進口,有幾個地方議會特別申請釋憲,憲法法庭將在22日舉行言詞辯論,國民黨是刻意要透過這樣的話題帶風向。
兩句意見中用以表示意見的動詞分別為「認為」以及「懷疑」。兩句意見的意見持有者皆為林楚茵,在第二句中需要將代名詞「她」還原成「林楚茵」。
下面為應用人物意見提取的簡單構想,最終的介面與人物意見呈現方式可能會有所不同。使用者介面預計以網頁方式建構。
此次鐵人賽將紀錄我在開發「基於自然語言處理的新聞意見提取應用」的過程中,覺得重要或是資源較少的開發細節與技巧,以及運用自然語言處理技術從繁體中文新聞文章中提取人物意見的實驗。
如果我這次的挑戰主題是你感興趣的話,歡迎繼續追蹤我的每日更新。
三十天的挑戰是段漫長且艱辛的旅程,在這裡為自己以及正在參賽的各位加油,我會努力的!
明天見~